課程資訊
課程名稱
語言科技概論
An Introduction to Language Technologies 
開課學期
102-1 
授課對象
學程  中英翻譯學程  
授課教師
高照明 
課號
FL3215 
課程識別碼
102 31810 
班次
 
學分
全/半年
半年 
必/選修
選修 
上課時間
星期二7,8,9(14:20~17:20) 
上課地點
博雅205 
備註
語言文化基礎課程。
限學士班三年級以上
總人數上限:30人 
Ceiba 課程網頁
http://ceiba.ntu.edu.tw/1021FL3215_ 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

Google的搜尋引擎及機器翻譯等語言科技已經成為目前新知識經濟的典範。以往類似的課程大多以資工系高年級或碩士班學生為對象,本課程將內容適度簡化,並加入中英文語言結構的介紹,讓文科背景學生也能理解,並將多項語言科技濃縮成一門入門課,希望能促進跨領域學習並提升科際整合的能力。本課程有系統地介紹自動辨識中英文語音、構詞、語法、語義等語言資訊的基本原理及相關的語言科技。每週在講述完相關理論部份後,由同學實際練習並操作相關的程式或系統。本課程不需具備程式設計經驗。 

課程目標
(一)瞭解中文及英文的語言結構與系統。(二)瞭解如何利用基本的數學和資訊科學理論和工具擷取或辨識中文及英文語音及文字訊息。(三)理解相關語言科技如拼字檢查、文法檢查、機器翻譯、語音辨識等技術的原理。(四)促進跨領域學習並提升科際整合的能力。 
課程要求
上課出席及實做、每週作業、期末報告 
預期每週課後學習時數
 
Office Hours
 
指定閱讀
Assigned Readings:
Kevin Mote. (2002) Natural Language Processing: A Survey.
http://arxiv.org/ftp/arxiv/papers/1209/1209.6238.pdf
Ronald A. Cole (eds.) (1998) Survey of the State of the Art
in Human Language Technology.
http://www.lt-world.org/hlt-survey/master.pdf
Steven Bird, Ewan Klein, and Edward Loper (2009) Natural Language Processing: Analyzing Text with the Natural Language Toolkit with Python.
http://nltk.org/book/
俞士汶 (2003) 計算語言學概論. 商務印書館
 
參考書目
References:
Prakash M Nadkarni, Lucila Ohno-Machado, Wendy W Chapman Natural Language Processing: An Introduction.
http://www.cs.tufts.edu/comp/150AIH/pdf/NadkarniOC11.pdf
James Allen. (1994) Natural Language Understanding. (2nd Edition). Addison Wesley.
Eugene Charniak (1993) Statistical Language Learning. MIT Press.
Daniel Jurafsky and James Martin. (2008) Speech and Language Processing. (2nd Edition). Prentice Hall.
Christopher Manning and Hinrich Shuetze. (1999) Foundations of Statistical Natural Language Processing. MIT Press.
NLTK 2.0 Documentation. http://nltk.org/
NLP Demos http://dcb.cit.nih.gov/nlp_tutorial/
俞士汶 (2003) 計算語言學概論. 商務印書館
翁富良 王野翊 (1998) 計算語言學導論 中國社會科學出版社
宗成慶 (2008) 統計自然語言處理 清華大學出版社
 
評量方式
(僅供參考)
 
No.
項目
百分比
說明
1. 
上課出席及實做 
20% 
 
2. 
每週作業 
50% 
 
3. 
期末報告 
30% 
 
 
課程進度
週次
日期
單元主題
第1週
9/10  中文和英文的字(character)、語素(morpheme)與詞(word)。
中英文複合詞(compound)的種類與性質。
中英文的構詞律。
萬國碼Unicode的簡介。
 
第2週
9/17  中文智慧型輸入法的原理。
中文分詞的應用。
中文分詞演算法。
詞頻與Zipf’s law。
 
第3週
9/24  如何利用有限狀態機(finite state machine)來辨識詞。
語料庫的類型與應用(corpus) 。
語言模型(language model) 。
訊息理論(information theory)包括熵(entropy)和互見訊息(mutual information)的應用。
如何擷取搭配語(collocation) 。
 
第4週
10/01  如何擷取關鍵詞(keyword identification) 。
文件分析(text analysis)簡介。
英文拼字錯誤檢查軟體(spelling checker)的設計原理。
中文錯字偵測軟體的設計原理。
 
第5週
10/08  中英文的詞性標記集(tagset) 。
中英文的詞性標注(part-of-speech tagging)演算法。
 
第6週
10/15  中英文句子的結構。
詞組結構律(phrase structure rules) 。
Context-Free Grammar (CFG) 。
Context-Sensitive Grammar (CSG) 。
Probabilistic Context-Free Grammar (CFG) 。
 
第7週
10/22  正規式(regular expressions)的應用。
如何利用詞性標注和正規式(regular expressions)來辨識名詞組。
 
第8週
10/29  詞權重(term weighting)的計算。
資訊檢索技術的原理。
 
第9週
11/05  文件相似度的計算(document similarity) 。
文件自動分類(document classification)的原理。
文件自動摘要(automatic summarization)的原理。
 
第10週
11/12  中英文語法剖析演算法。 
第11週
11/19  詞彙岐義與結構岐義。
如何利用語料庫解決詞彙岐義與結構岐義。
 
第12週
11/26  文件中人事時地物的自動辨識。
語義角色理論。
語義角色的辨識。
 
第13週
12/03  資訊擷取(information extraction) 。
對話中的語用學原理。
問答系統(question answering) 。
 
第14週
12/10  雙語平行語料庫。
翻譯記憶系統的原理。
機器翻譯的原理。
 
第15週
12/17  中文及英文的語音及音韻系統。
中英文的聲韻學規則。
語音的處理。
 
第16週
12/24  語音辨識(speech recognition)的原理。
語音合成(speech synthesis) 。
 
第17週
12/31  學生分組期末報告 
第18週
  學生分組期末報告